Model Selection

High-Precision Image Captioning

# High-Precision Image Captioning

Pixelreasoner RL V1

PixelReasoner is a vision-language model based on Qwen2.5-VL-7B-Instruct, trained with curiosity-driven reinforcement learning, focusing on image-text-to-text tasks.

Transformers English

Qwen2.5 VL 3B Instruct Quantized.w4a16

The quantized version of Qwen2.5-VL-3B-Instruct, with weights quantized to INT4 and activations quantized to FP16, designed for efficient vision-text task inference.

Transformers English

Asagi-4B is a large-scale Japanese Vision-Language Model (VLM) trained on extensive Japanese datasets, incorporating diverse data sources.

Transformers Japanese

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase